本文介绍了一个新的大型多视图数据集,称为Humbi的人体表达式,具有天然衣物。 HUMBI的目标是为了便于建模特异性的外观和五个主要身体信号的几何形状,包括来自各种各样的人的凝视,面部,手,身体和服装。 107同步高清摄像机用于捕获772个跨性别,种族,年龄和风格的独特科目。使用多视图图像流,我们使用3D网格模型重建高保真体表达式,允许表示特定于视图的外观。我们证明HUMBI在学习和重建完整的人体模型方面非常有效,并且与人体表达的现有数据集互补,具有有限的观点和主题,如MPII-Gaze,Multi-Pie,Human 3.6m和Panoptic Studio数据集。基于HUMBI,我们制定了一种展开的姿态引导外观渲染任务的新基准挑战,其旨在大大延长了在3D中建模的不同人类表达式中的光敏性,这是真实的社会远程存在的关键能力。 Humbi公开提供http://humbi-data.net
translated by 谷歌翻译
我们提出了一种新的姿势转移方法,用于从由一系列身体姿势控制的人的单个图像中综合人类动画。现有的姿势转移方法在申请新颖场景时表现出显着的视觉伪影,从而导致保留人的身份和纹理的时间不一致和失败。为了解决这些限制,我们设计了一种构成神经网络,预测轮廓,服装标签和纹理。每个模块化网络明确地专用于可以从合成数据学习的子任务。在推理时间,我们利用训练有素的网络在UV坐标中产生统一的外观和标签,其横跨姿势保持不变。统一的代表提供了一个不完整的且强烈指导,以响应姿势变化而产生外观。我们使用训练有素的网络完成外观并呈现背景。通过这些策略,我们能够以时间上连贯的方式综合人类动画,这些动画可以以时间上连贯的方式保护人的身份和外观,而无需在测试场景上进行任何微调。实验表明,我们的方法在合成质量,时间相干性和泛化能力方面优于最先进的。
translated by 谷歌翻译
The Weather4Cast competition (hosted by NeurIPS 2022) required competitors to predict super-resolution rain movies in various regions of Europe when low-resolution satellite contexts covering wider regions are given. In this paper, we show that a general baseline 3D U-Net can be significantly improved with region-conditioned layers as well as orthogonality regularizations on 1x1x1 convolutional layers. Additionally, we facilitate the generalization with a bag of training strategies: mixup data augmentation, self-distillation, and feature-wise linear modulation (FiLM). Presented modifications outperform the baseline algorithms (3D U-Net) by up to 19.54% with less than 1% additional parameters, which won the 4th place in the core test leaderboard.
translated by 谷歌翻译
具有提高可传递性的对抗性攻击 - 在已知模型上精心制作的对抗性示例的能力也欺骗了未知模型 - 由于其实用性,最近受到了很多关注。然而,现有的可转移攻击以确定性的方式制作扰动,并且常常无法完全探索损失表面,从而陷入了贫穷的当地最佳最佳效果,并且遭受了低传递性的折磨。为了解决这个问题,我们提出了细心多样性攻击(ADA),该攻击以随机方式破坏了不同的显着特征以提高可转移性。首先,我们将图像注意力扰动到破坏不同模型共享的通用特征。然后,为了有效避免局部优势差,我们以随机方式破坏了这些功能,并更加详尽地探索可转移扰动的搜索空间。更具体地说,我们使用发电机来产生对抗性扰动,每个扰动都根据输入潜在代码而以不同的方式打扰。广泛的实验评估证明了我们方法的有效性,优于最先进方法的可转移性。代码可在https://github.com/wkim97/ada上找到。
translated by 谷歌翻译
联合学习(FL)是一种机器学习(ML)技术,旨在减少对用户数据隐私的威胁。培训是使用用户设备上的原始数据(称为客户端)进行的,只有称为梯度的培训结果被发送到服务器进行汇总并生成更新的模型。但是,我们不能假设可以使用私人信息来信任服务器,例如与数据所有者或数据源相关的元数据。因此,将客户信息隐藏在服务器中有助于减少与隐私相关的攻击。因此,客户身份的隐私以及客户数据的隐私是使此类攻击更加困难的必要条件。本文提出了基于组签名的FL的高效和隐私权协议。一个名为GSFL的新组合签名旨在保护客户数据和身份的隐私,而且考虑考虑到联合学习的迭代过程,还大大降低了计算和通信成本。我们表明,在计算,通信和信号成本方面,GSFL优于现有方法。另外,我们表明所提出的协议可以在联合学习环境中处理各种安全攻击。
translated by 谷歌翻译
现代深度学习在各个领域取得了巨大的成功。但是,它需要标记大量数据,这是昂贵且劳动密集型的。积极学习(AL)确定要标记的最有用的样本,对于最大化培训过程的效率变得越来越重要。现有的AL方法主要仅使用单个最终固定模型来获取要标记的样品。这种策略可能还不够好,因为没有考虑为给定培训数据的模型的结构不确定性来获取样品。在这项研究中,我们提出了一种基于常规随机梯度下降(SGD)优化产生的时间自我汇总的新颖获取标准。通过捕获通过SGD迭代获得的中间网络权重来获得这些自我复杂模型。我们的收购功能依赖于学生和教师模型之间的一致性度量。为学生模型提供了固定数量的时间自我安装模型,并且教师模型是通过平均学生模型来构建的。使用拟议的获取标准,我们提出了AL算法,即基于学生教师的AL(ST-Conal)。在CIFAR-10,CIFAR-100,CALTECH-256和TINY IMAGENET数据集上进行的图像分类任务进行的实验表明,所提出的ST-Conal实现的性能要比现有的获取方法要好得多。此外,广泛的实验显示了我们方法的鲁棒性和有效性。
translated by 谷歌翻译
人们对从长尾班级分布中学习的具有挑战性的视觉感知任务越来越兴趣。训练数据集中的极端类失衡使模型偏向于识别多数级数据而不是少数级数据。最近,已经提出了两个分支网络的双分支网络(DBN)框架。传统的分支和重新平衡分支用于提高长尾视觉识别的准确性。重新平衡分支使用反向采样器来生成类平衡的训练样本,以减轻由于类不平衡而减轻偏见。尽管该策略在处理偏见方面非常成功,但使用反向采样器进行培训可以降低表示形式的学习绩效。为了减轻这个问题,常规方法使用了精心设计的累积学习策略,在整个培训阶段,重新平衡分支的影响逐渐增加。在这项研究中,我们旨在开发一种简单而有效的方法,以不需要优化的累积学习而在不累积学习的情况下提高DBN的性能。我们设计了一种称为双边混合增强的简单数据增强方法,该方法将统一采样器中的一个样品与反向采样器中的另一个样品结合在一起,以产生训练样本。此外,我们介绍了阶级条件的温度缩放,从而减轻对拟议的DBN结构的多数级别的偏见。我们对广泛使用的长尾视觉识别数据集进行的实验表明,双边混合增加在改善DBN的表示性能方面非常有效,并且所提出的方法可以实现某些类别的先进绩效。
translated by 谷歌翻译
为了估计基于多视图的渲染中3D点的体积密度和颜色,一种常见的方法是检查给定的源图像特征之间的共识存在,这是估计过程的信息提示之一。为此,大多数以前的方法都利用了同样加权的聚合特征。但是,这可能会使在源图像功能集中包含一些经常通过遮挡发生的异常值时,很难检查共识存在。在本文中,我们提出了一种新颖的源视图特征聚合方法,该方法通过利用特征集中的局部结构来促进我们以强大的方式以强大的方式找到共识。我们首先计算提出的聚合的每个源特征的源视图距离分布。之后,将距离分布转换为几个相似性分布,并具有所提出的可学习相似性映射函数。最后,对于特征集中的每个元素,通过计算加权均值和方差来提取聚合特征,其中权重是从相似性分布得出的。在实验中,我们在各种基准数据集(包括合成和真实图像场景)上验证了所提出的方法。实验结果表明,合并提出的功能可以通过大幅度提高性能,从而提高最先进的性能。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
局灶性肝脏病变(FLLS)的计算机辅助诊断有助于改善工作流程并实现正确的诊断; FLL检测是如此计算机辅助诊断的第一步。尽管近期基于深度学习的方法在检测到FLLS方面取得了成功,但目前的方法对于评估未对准的多相数据来说是不够稳健的。通过在特征空间中引入注意引导的多相对准,本研究提出了一种用于检测来自多相计算机断层扫描(CT)图像的FLL的完全自动化的端到端学习框架。由于其完全基于学习的方法,我们的方法是对错位的多相图像的强大,这降低了模型对注册质量的敏感性,并且可以在临床实践中独立地部署模型。具有280名患者的大型数据集的评估证实,我们的方法优于先前的最先进的方法,并显着降低了使用未对准的多相CT图像检测FLL的性能劣化。所提出的方法的稳健性可以增强深学习的计算机辅助检测系统的临床采用。
translated by 谷歌翻译